\bibliographystyle{gbt7714-2005}

\chapter{数据清理} % (fold)
\label{cha:数据清理}
数据清洗， 是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的大部分时间。通常而言，数据清理工作主要包含如下内容：

\begin{figure}[htbp]
\centering
\includegraphics[width=120mm]{Raw/dataCleaning.jpg}
\caption{数据清理路径}
\label{fig:数据清理路径}
\end{figure}

\section{数据合并} % (fold)
\label{sec:数据合并}
通常情况下，我们的数据录入工作往往由多人完成，需要进行数据的合并工作。
\subsection{文本文件的合并} % (fold)
\label{sub:文本文件的合并}
如果数据文件格式为txt或者csv，就先采用read.table函数分别读入文件：

\begin{lstlisting}
> data1 <- read.table('/Users/yangjh/document/works/www/LearningR/Data/收益率1.txt', header = T, fileEncoding = 'UTF-16')
> data2 <- read.table('/Users/yangjh/document/works/www/LearningR/Data/收益率2.txt', header = T, fileEncoding = 'UTF-16')
> data1
   买入日期 股票名称 买入数量 买入价格 实际卖出价格 卖出利润
1 2014/12/3 中信证券      300    19.63        25.35     1716
2 2014/12/3 民生银行     1000     8.49        10.41     1921
3 2014/12/5 深圳能源      700    10.16        11.70     1078
4 2014/12/5 中国平安      100    62.40        63.20       80
> data2
    买入日期 股票名称 买入数量 买入价格 实际卖出价格 卖出利润
1 2014/12/24 瀚蓝环境      300    14.86        14.92       18
2 2014/12/25 海油工程     1400    11.13        14.68     4970
3 2014/12/29 海油工程      400    11.18        14.68     1400
4  2015/1/13 福耀玻璃     1000    13.05        13.27      220
5  2015/1/14 浦发银行     1000    15.42        17.01     1590
\end{lstlisting}

然后利用rbind或者cbind函数，能够按照行或者列合并向量、矩阵和数据框。

\begin{lstlisting}
> data <- rbind(data1,data2)
> data
    买入日期 股票名称 买入数量 买入价格 实际卖出价格 卖出利润
1  2014/12/3 中信证券      300    19.63        25.35     1716
2  2014/12/3 民生银行     1000     8.49        10.41     1921
3  2014/12/5 深圳能源      700    10.16        11.70     1078
4  2014/12/5 中国平安      100    62.40        63.20       80
5 2014/12/24 瀚蓝环境      300    14.86        14.92       18
6 2014/12/25 海油工程     1400    11.13        14.68     4970
7 2014/12/29 海油工程      400    11.18        14.68     1400
8  2015/1/13 福耀玻璃     1000    13.05        13.27      220
9  2015/1/14 浦发银行     1000    15.42        17.01     1590
\end{lstlisting}


\subsection{Excel格式的数据文件合并} % (fold)
\label{sub:excel格式的数据文件合并}
由于Excel格式导入后，数据结构也是数据框，因此，其合并也可采用rbind函数。

\subsection{subsection name} % (fold)
\label{sub:subsection_name}

% subsection subsection_name (end)
\section{数据初步清理} % (fold)
\label{sec:数据初步清理}
\subsection{删除空白数据} % (fold)
\label{sub:删除空白数据}
\subsection{删除重复数据} % (fold)
\label{sub:删除重复数据}

% subsection 删除重复数据 (end)
% subsection 删除空白数据 (end)

\section{逻辑一致性检查} % (fold)
\label{sec:逻辑一致性检查}

\section{重新编码与变量生成} % (fold)
\label{sec:重新编码与变量生成}

\section{数据变换} % (fold)
\label{sec:数据变换}

\bibliography{../bib/yangjh}
